
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。
来自主题: AI技术研报
6475 点击 2024-12-05 11:27
大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。